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摘 要: 目标 识别 是 实现 视频 监控 智能 分 析 的 基础 ， 但 在 光照 、 阴 影 以 及 杂乱 背景 等 场景 中 ,往往 会 出 现 目标 误 判 以 
及 不 合理 聚 类 等 问题 。 针 对 上 述 问 题 ， 提 出 一 种 基于 人 类 视觉 系统 (HVS) 的 视频 监控 目标 提取 方法 ， 结 合 HVS 视觉 
关注 原理 ， 优 化 背景 差 法 检测 结果 中 存在 的 重复 检测 和 错误 分 割 问题 ， 并 根据 HVS 的 跟踪 特点 以 及 目标 运动 的 连续 
性 ， 结 合 相 邻 帧 检测 结果 ， 达 到 目标 区 域 的 完整 准确 提取 ; 最 后 ， 基 于 实际 采集 视频 进行 仿真 实验 ， 证 明 所 提 目 标 检 
测算 法 结果 准确 性 更 高 ， 在 复杂 背景 下 也 有 良好 的 检测 效果 。 
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Abstract: Object detection is the basis of intelligent analysis, however, in the scene of illumination, shadow and clutter 
background, the problems of object misjudgment and unreasonable clustering is often appeared. Aiming at the above problems, 


propose a HVS-based object detection algorithm, which can optimize the error judgment and segmentation, and then accorded 


to the tracking characteristic of HVS and the continuity of object movement, combine the detection results of adjacent frames 


to achieve completely and accurately extraction object area. Finally, the simulation experiment based on the actual acquisition 


videos show that the proposed algorithm is more accurate and have good effect and in complex background. 
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0 az 智能 视频 监控 系统 是 指 在 系统 中 增加 智能 算法 模块 ， 对 视 

频 中 运动 目标 区 域 进行 定位 、 识 别 和 跟踪 ， 并 在 此 基础 上 分 析 
言 息 技术 发 展 日 新 月 异 031, EESUUER. 智慧 城 市 的 实现 成 和 判断 目标 的 行为 ， 识 别 监控 系统 中 的 异常 情况 ， 并 以 最 快 和 
为 可 能 。 随 着 智慧 城市 的 快速 发 展 ， 视 频 监 控 业 务 步 入 数据 的 。 最 佳 的 方式 发 出 警报 或 触发 其 他 动作 ,从 而 有 痪 
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t E. AMA ROET SERE TRUE 
井喷 时 代 。 根据 IDC (International Data Corporation 国际 数据 公 事 中 处 理 、 事 后 及 时 取证 的 全 自动 、 人 全天候、 实时 监控 的 智能 
司 ) 的 研究 报告 表明 ，2012 年 视频 监控 数据 总 量 约 为 2.8 ZB, 系统 。 运 动 目标 识别 是 实现 智能 分 析 的 基础 ， 决 定 了 能 否 通 过 
且 正 在 以 55% 的 速度 逐年 增长 ， 预 计 到 2020 年 ， 数 据 总 量 约 智能 算法 进行 进一步 的 跟踪 与 监控 以 5 。 

为 40 ZB， 未 来 网 络 将 难以 承受 。 面 对 如 此 海量 的 数据 ， 继 续 前 最 常见 的 运动 目标 检测 方法 有 三 种 : 光 流 法 、 帧 差 法 、 
依靠 传统 的 人 工分 析 已 经 不 能 满足 需求 ， 结 合 智能 算法 分 析 的 背景 差 法 。 光 流 法 不 需要 指定 背景 区 域 就 可 以 实现 对 运动 目标 
智能 视频 监控 成 为 未 来 发 展 的 必然 趋势 。 的 检测 ， 但 计算 量 较 大 且 对 噪声 较为 敏感 。 帧 差 法 对 时 间 上 连 
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1.2 H 


兴趣 


或 的 目的 。 
VS-inter-Frame 优化 算法 


Ix 


JRK. DAAR EL 


言 息 ， 将 不 合理 分 割 造成 的 结果 合 


Ix 


聚 类 ， 达 到 完整 


f 究 表明 ,HYVS 并 非 只 简单 理解 i 
壬 一 套 内 在 的 推 


导 机 


一 中 


由 去 解读 输入 的 视觉 信号 ， 即 对 于 待 


入 人 眼 的 视觉 信号 ， 而 


识别 的 场景 ，HVS 会 根据 大 脑 中 的 记忆 信息 ， 来 推导 、 预 测 其 
容 ， 实 际 上 ， 人 了 眼 对 运动 物体 的 分 辨 能 力 和 人 了 眼 能 不 能 


视觉 内 

“跟踪 
监控 视 
的 连续 
准确 性 
在 相 邻 
标 区 域 
[i 


Lia: WR Lg = Lia» 


两 种 情 
含 两 种 


3L, 


历 当前 
与 5 有 


”有 关 ”。 同 时 ， 基 于 监控 视频 场景 相对 固定 的 特点 ， 


频 具 有 连续 性 ， 则 出 现在 场景 中 的 运动 
性 ， 可 以 对 相 邻 帧 检测 结果 进行 综合 分 析 ， 进 


标 也 具有 一 定 


步 提高 


。 结 合 视频 监控 中 视频 流 的 连续 性 ， 即 感 兴 趣 运 动 区 域 


帧 之 间 不 会 出 现 巨大 的 跳 变 这 一 原理 ， 对 


检测 结果 进行 帧 间 纠 错 。 
设 当 前 图 像 中 


标 数 目 为 .， 相 邻 上 一 帧 中 目标 数目 
则 目标 检测 正确 如果 Lj > Lk AR 


上 述 感 兴趣 目 


为 


Db. a. 新 目标 出 现 , b. 目 标 错误 分 割 ; 如 果 Lj < Lg- 包 


情况 :目标 离开 ;目标 丢失 。 


AL, > Lx-1 时 ,假设 前 一 帧 中 检测 到 的 目标 区 域 为 4%， 遍 


图 像 中 检测 得 到 的 目标 区 域 


， 如 果 当 前 图 像 中 


标 区 域 


交集 , 则 计数 为 s 个 , Hs > 2 时 , 将 当前 图 像 中 与 上 一 帧 
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中 有 交集 的 目标 区 域 合 
于 目标 区 


或 被 错误 的 分 割 , 并 将 结果 与 上 一 
同时 解决 目标 其 他 部 分 可 能 


， 此 时 认为 出 现 这 种 问题 的 原因 是 
帧 对 应 区 域 求 
出 现 的 缺失 情况 。 


并 集 ， 


TAL, < Zx-i 时 ， 选 取 当 前 帧 相 邻 的 " 帧 联合 分 析 ， 假 设 当 


RI IL S LL, 识别 出 的 目标 区 域 宽 和 
本 文通 过 判断 相 邻 帧 之 间 的 目标 区 域 面积 


前 帧 检测 到 的 感 兴 
根据 长 期 测试 以 及 
3M 


width; * height; 


las * height; 


趣 区 域 是 否 发 生 突变 。 
标 变 化 


高 分 别 为 width 和 height， 
间 的 关系 来 判断 当 


‘width * height; 2 thres3 


«width, * height; < (1—thres3) 


体 过 程 如 图 4 Bron, 


的 规律 ， 设 置 闵 值 thres3,thres4， 


(8) 


时 ,说 明 当 


前 帧 i 中 对 应 的 目标 出 现 突变 。 


记录 出 现 突变 的 次 数 


为 1， 当 前 帧 上 与 相 邻 的 ? 帧 之 间 总 对 比 的 次 数 为 m， 在 所 有 目标 


与 相 邻 帧 之 间 对 应 


出 错 次 数 !， 然 后 通过 计算 Li 的 值 ， 如 果 


目标 对 比 结束 之 后 ， 得 到 总 对 比 次 数 m 和 总 
RU, > thres4， 则 说 明 


当前 帧 i 中 存在 目标 区 域 突变 的 情况 ,根据 对 感 兴趣 目标 区 域 运 


动 特性 
Mb 
性 和 连续 性 ， 


的 分 析 ， 


目标 的 运动 具有 连续 性 和 ] 
目标 突变 之 后 ， 为 了 保证 


息 对 当 


前 帧 进行 赋值 。 


35]! 


生 ， 所 以 当当 前 


Frame n 


—R— — 
» [Frane n-5 [Frane n-4 


Frame n-3 


检测 到 的 目标 
将 当前 帧 的 上 一 帧 :- 1 帧 得 到 的 


区 域 呈 现 出 一 致 
目标 区 域 位 置信 


Y 


总 次 数 m 出 错 次 数 n 


优化 


标 突变 优化 方法 


2 实验 


本 文 所 选取 实验 环境 以 及 实时 采集 视频 参数 分 别 如 表 1 和 2 


宽 小 于 thres1 的 
可 以 看 出 仍然 存 


赵 : ATH 


区 域 可 以 被 


S5 


个 


目标 区 域 。 


目标 区 域 删 除 。 如 图 
在 目标 区 域 被 错误 分 割 的 情况 ， 
完整 提取 ， 因 此 设置 门 

限 值 thres2 为 50， 将 距离 小 于 门限 值 thres2 的 目标 区 域 合 


Xv 合作 期 刊 ， 


空 目 标 提取 方法 


Chi 
HVS 


Ar 3L: nax " 


6 所 示 , 当 thres2=25 时 ， 
当 thres2 = 50， 


为 


如 图 


7 所 示 ， 通 过 


对 若干 连续 运动 的 目标 区 域 


面积 进行 分 析 ， 纠 错 算 法 中 设置 门限 值 thres3 和 thres4 分 别 为 


0.8 和 0.9. 


Thres1= 


Thres1= 


5 


15 


Thres3-0.8 


Thres4-0.9 


如 图 8 所 示 


1280*720 分 辨 率 下 ， 平 均 每 秒 处 理 图 像 帧 数 为 
在 视频 监控 场景 下 可 以 满足 实时 视频 处 理 。 


所 示 。 
表 1 实验 环境 两 小 时 以 
CPU 内 存 软件 版 本 代表 所 选取 视频 
Intel Core i7 8G VS2013+OpenCV3.0 真实 验证 明 ， 在 
表 2 实时 采集 视频 数据 34 Ws 8005600 
场景 DES K 
室内 、 走 廊 真 实 场景 m 本 算法 


本 文 的 仿真 
测试 ， 如 图 5 所 示 ， 


是 建立 在 背 


景 差 法 的 基础 之 上 ， 通 过 
图 中 分 别 设置 门限 值 为 5、15、 
看 出 ， 当 thres1=5 时 ， 仍 然 存 在 由 于 光照 引起 的 噪点 ; 当 
thresi-15 时 ， 基 本 消除 场景 中 的 
标 区 域 大 量 丢失 ， 因 此 设置 合理 门限 值 thres1 为 15， 将 长 或 


长 期 实验 
25， 可 以 


噪点 ; 当 thresl=25 时 ， 出 现 


E, WN 24, 


， 对 实时 采集 的 


图 像 分 辨 率 ， 


z] 6 thres2 选 取 


图 7 thres3 和 thres4 选 取 

三 种 不 同 分 辨 率 下 各 三 段 视 频 
进行 算法 测试 ， 所 选 场景 为 室内 和 走廊 两 种 ， 每 段 视频 时 长 在 
处 理 图 像 帧 数 超过 十 万 帧 ， 图 中 横 轴 
纵 轴 代表 每 秒 处 理 图 像 帧 数 ， 仿 


640*480 分 辨 率 下 ， 平 均 每 秒 处 理 图 像 帧 数 为 


HREF, 


平均 每 秒 处 理 


图 像 帧 数 为 28 Ti, 


22 Wi. Dy, 


在 相同 实验 
图 片 进行 测试 ， 
化 的 三 种 场景 ， 
准确 检测 目标 图 


环境 下 ， 本 文 分 别 选取 三 种 场景 下 各 1000 Wi 


如 图 9 所 示 ， 
包括 光照 、 
像 帧 数 所 


TA 


标 表 示 所 选取 的 存在 动态 变 


阴影 和 杂乱 背景 三 种 ， 纵 坐标 表示 
5 总 帧 数 的 百分比 ， 图 中 三 种 柱状 图 


分 别 表示 背景 差 法 、 Intra Frame 算法 与 Intra Frame + Inter Frame 


算法 的 检测 结果 。 


从 图 中 可 以 看 


上 ， 本 文 检测 算法 相对 于 背景 
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差 法 检测 结果 准确 率 可 以 改进 约 60% 以 上 。 扰 等 的 影响 的 时 候 ， 背 景 差 法 的 检测 结果 会 出 现 大 量 噪点 以 及 
A wig 不 完整 提取 ， 本 文 优化 算法 相对 于 背景 差 法 可 以 更 加 完整 准确 
60 — 
söl 的 检测 出 场景 中 的 感 兴趣 目标 区 域 ， 同 时 对 场景 中 出 现 的 噪点 
40 — 等 可 以 有 有 效 的 抑制 。 
"W3 E- 
30 l- gu E 
20 一 90% 上 
iol- l. 80% 上 
70% L 
640480 800600 1280720 3t 60% - 
50% L- 
图 8 算法 时 间 分 析 40% 
30% 上 
209 上 
另外 ， 测 试 环 境 不 变 ， 选 取 三 种 存在 动态 场景 变化 的 测试 10% 上 
结果 分 别 如 下 图 10、11、12 所 示 , 场景 中 椭圆 区 域内 为 环境 引 XM s ESR Nt B LE 全 
" 1 m intra rame Ai 
起 的 噪点 或 目标 区 域 出 现 错误 分 割 的 部 分 。 根 据 仿 真 结 果 可 以 s Intra Frame 算法 +Inter Frame 算法 
看 出 ， 在 受到 场景 的 动态 变化 ， 如 光照、 阴影 及 杂乱 二 "Xm 图 9 性 能 对 比 
图 10 场景 1 
Wr! QE ri A 
"m" ii Lj (mi) | D 
Y 
背景 差 法 
a 
本 文 算法 | | 
图 11 场景 2 
- a p p 
oos N v X B. La. n ny n3 
AP M SUM RN EN - 
背景 差 法 p 
本 文 算法 
图 12 场景 2 
3 ”结束 语 过 帧 内 聚 类 优化 解决 错误 检测 和 分 割 的 问题 ， 进 一 步 通过 帧 间 


本 文 提出 了 一 种 基于 HVS 的 视频 监控 目标 提取 方法 。 该 目标 检测 结果 的 目的 。 仿 真 结果 表明 ， 本 文 改进 的 算法 相 比 于 


方法 通过 将 


检测 结果 分 析 判 断 优化 帧 间 突 变 问题 ， 达 到 有 效 抑制 环境 影响 


HVS 中 的 视觉 关注 特点 引入 背景 差 法 ， 快 速 优 化 ”传统 的 背景 差 法 ， 具 有 更 好 的 检测 效果 ， 可 以 准确 完整 的 实现 


目标 检测 中 的 错误 判断 和 分 割 ， 从 而 完整 准确 提取 视频 监控 场 目标 区 域 提 取 。 


景 中 的 前 景 


目标 ， 有 效 弥补 上 述 所 提现 有 算法 的 不 足 。 首 先 通 
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